HEAPSŮV ZÁKON
Matematický model, který aproximuje vztah mezi počtem ↗tokenů v ↗korpusu a počtem ↗typů. S tím, jak zvětšujeme zkoumaný korpus, tedy počet tokenů, se neustále zvětšuje i počet jeho typů (lexikon). Označíme‑li počet tokenů v korpusu N a počet typů při dané velikosti korpusu V(N), platí zhruba tento vztah: V(N) = aNb. Koeficienty a a b variují v závislosti na jaz. a typu textu. Pro č. můžeme zhruba odvodit tyto hodnoty: pro typy tvořené pomocí lemmat platí, že a = 11,8287 a b = 0,5955. Pro typy tvořené slovními tvary má rovnice koeficienty a = 118,0895 a b = 0,5113 (údaje jsou průměrem několika měření na různých typech textů v korpusech řady SYN). Korpus o velikosti 1 milion slov, tokenů (psané č.), by tak měl obsahovat zhruba 44,2 tisíce různých lemmat a 138 tisíc různých slovních tvarů.
- Baayen, H. R. Word Frequency Distributions, 2001.
- Herdan, G. Type-Token Mathematics, 1960.
URL: https://www.czechency.org/slovnik/HEAPSŮV ZÁKON (poslední přístup: 21. 11. 2024)
CzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka